DISAMBIGUACE / DESAMBIGUACE
Disambiguace // Zjednoznačnění, tj. odstranění ↗homonymie (ambiguity), čili jednoznačná interpretace slovního tvaru či skupiny slovních tvarů n. věty na základě kontextu či mimojazykové situace. V korpusové lingvistice se d. u velkých korpusů provádí výhradně automaticky, je součástí morfologické ↗anotace a týká se obecně všech jaz. rovin.
Běžná je morfologická disambiguace, zahrnující ↗lemmatizaci a přiřazení náležitých morfologických údajů slovnímu tvaru na základě kontextu. Např. ve větě Větry vanou od západu se při morfologické interpretaci věty nejprve přiřadí ↗morfologickou analýzou tvaru vanou dvě ↗lemmata a dvě morfologické interpretace: 1. lemma = vana, subst.fem.sg.instr., 2. lemma = vát, 3. os.pl.préz., a poté se při d. vybere náležitá 2. interpretace. Morfologická d. je dvojího typu: (i) ruční či poloautomatická – slouží pouze jako přípravná fáze pro d. plně automatickou (✍Hajič & Hladká, 1997; ✍Hajič & Hladká, 1998), (ii) plně automatická. Automatická morfologická d. se obecně provádí třemi způsoby (srov. ✍Chanod & Tapanainen, 1995; ✍Samuelsson & Voutilainen, 1997):
(a) stochastická disambiguace (statistická disambiguace), realizovaná na základě ↗strojového učení (např. metodou skrytého markovského modelu); (✍Hajič & Hladká, 1997; ✍Hajič & Hladká, 1998; ✍Brants, 2000; ✍Votrubec, 2005),
(b) disambiguace založená na lingvistických pravidlech, která buď vytváří lingvista (✍Tapanainen & Voutilainen, 1994; ✍Karlsson & Voutilainen ad. (eds.), 1995; ✍Chanod & Tapanainen, 1995; ✍Oliva & Hnátková ad., 2000; ✍Květoň, 2006; ✍Petkevič, 2006), n. se automaticky vyvozují z textů (✍Brill, 1992),
(c) hybridní disambiguace, která spojuje výhody přístupů (a) a (b) (✍Hajič & Krbec ad., 2001; ✍Jelínek & Petkevič, 2011). Automatickou morfologickou d. provádí program zvaný ↗tagger v užším smyslu.
Syntaktická disambiguace je součástí ↗parsingu, kdy se odstraňuje syntaktická, ale i morfologická víceznačnost, a identifikují se syntakticky víceznačné syntaktické struktury. Např. v syntakticky víceznačné větě František hrál v altánu šachy se svým ruským přítelem stanoví syntaktická d., že předložková skupina se svým ruským přítelem rozvíjí sloveso hrát jako jeho adverbiále, a nikoli např. substantivum altánu či šachy jako jejich přívlastek.
Při sémantické disambiguaci se řeší ty typy víceznačnosti, které neodstraní d. morfologická ani syntaktická, s výjimkou těch, jež jsou z hlediska vyšší roviny synonymní: např. sémanticky jednoznačné konstrukce typu využívat zařízení (gen.sg./akuz.sg.) n. (gen.pl./akuz.pl.), dělám chyby ve skloňování (věta je sémanticky jednoznačná, ale má více syntaktických interpretací).
↗Morfologická disambiguace je součástí ↗morfologické analýzy. Viz také ↗disambiguace lexikálních významů.
- Brants, T. TnT – A Statistical Part-of-Speech Tagger. In Nirenburg, S. (ed.), Proceedings of the Sixth Applied Natural Language Processing Conference ANLP-2000, 2000, 224–231.
- Brill, E. A Simple Rule-Based Part-of-Speech Tagger. In Bates, M. & O. Stock (eds.), Proceedings of the Third Conference on Applied Natural Language Processing, 1992, 152–155.
- Hajič, J. & B. Hladká. Morfologické značkování korpusu českých textů stochastickou metodou. SaS 58, 1997, 288–304.
- Hajič, J. & B. Hladká. Tagging Inflective Languages: Prediction of Morphological Categories for a Rich, Structured Tagset. In COLING-ACL '98. Proceedings of the 36th Annual Meeting of the Association for Computational Linguistics and 17th International Conference on Computational Linguistics, vol. I, 1998, 483–490.
- Hajič, J. & P. Krbec ad. Serial Combination of Rules and Statistics: A Case Study in Czech Tagging. In Proceedings of the 39th Annual Meeting of the Association for Computational Linguistics (ACL 2001), 2001, 260–267.
- Chanod, J. P. & P. Tapanainen. Tagging French – Comparing a Statistical and a Constraint-Based Method. In Proceedings of EACL-95. ACL, 1995, 149–157.
- Jelínek, T. & V. Petkevič. Systém jazykového značkování současné psané češtiny. In Petkevič, V. & A. Rosen (eds.), Korpusová lingvistika Praha 2011 3. Gramatika a značkování korpusů, 2011, 154–170.
- Karlsson, F. & A. Voutilainen ad. (eds.) Constraint Grammar. A Language-Independent System for Parsing Unrestricted Text, 1995.
- Květoň, P. Rule-Based Morphological Disambiguation (Towards a Combination of Linguistic and Stochastic Methods). PhD. dis., MFF UK, Praha, 2006.
- Oliva, K. & M. Hnátková ad. The Linguistic Basis of a Rule-Based Tagger of Czech. In Sojka, P. & I. Kopeček ad. (eds.), Proceedings of the Text, Speech and Dialogue conference TSD 2000, 2000, 3–8.
- Petkevič, V. Reliable Morphological Disambiguation of Czech: Rule-Based Approach is Necessary. In Šimková, M. (ed.), Insight into the Slovak and Czech Corpus Linguistics, 2006, 26–44.
- Samuelsson, Ch. & A. Voutilainen. Comparing a Linguistic and a Stochastic Tagger. In Proceedings of 35th Annual Meeting of the Association for Computational Linguistics and 8th Conference of the European Chapter of the Association for Computational Linguistics, 1997, 246–253.
- Tapanainen, P. & A. Voutilainen. Tagging Accurately: Don't Guess if you Know. In Proceedings of 4th Conference on Applied Natural Language Processing, 1994, 47–52.
- Votrubec, J. Návrh vhodné sady rysů pro morfologické značkování češtiny. Mgr. dipl., MFF UK, Praha, 2005.
URL: https://www.czechency.org/slovnik/DISAMBIGUACE / DESAMBIGUACE (poslední přístup: 21. 11. 2024)
Další pojmy:
korpusová lingvistikaCzechEncy – Nový encyklopedický slovník češtiny
Všechna práva vyhrazena © Masarykova univerzita, Brno 2012–2020
Provozuje Centrum zpracování přirozeného jazyka